第1章 はじめに(『BERTによる自然言語処理入門』)
1-1 自然言語処理とは
自然言語の関わる問題をコンピュータで解くこと (p.2)
タスク
自然言語処理で扱う問題
基礎から応用まで幅広いタスクがある
多くのタスクは分類問題 (p.5)
1-3 機械学習による自然言語処理
文章や単語を「密なベクトル」に変換できる (p.5)
この密なベクトル=分散表現
TF-IDFで文章を表現する場合はsparseなベクトルになるので、ここが違ってくる
密なベクトルは、なんらかの形で単語や文章の意味を反映していると考えられる
ニューラル言語モデルから得られる分散表現はデータの有用な特徴量として用いることができ、
有用性も確かめられている
特徴抽出器としても使える
1-4 BERTとは
文脈を考慮した分散表現を生成できる (p.6)
事前学習
大量の文章のデータを用いて汎用的な言語のパターンを学習 (p.5)
ファインチューニング
「比較的少数のラベル付きデータを用いて、」「特定のタスクに特化するように学習」
事前学習済みのBERT + ラベル付きデータ(正解がわかっているデータ)